import pandas as pd
import os

"""
读取文件夹全部数据表格数据，与目标文件去重
"""
# 读取文件夹全部数据表格数据
files_path = './data/测试/base'
all_data = pd.DataFrame()
for filename in os.listdir(files_path):
    print(filename)
    file_path = os.path.join(files_path, filename)
    print(file_path)
    # 读取数据表格
    df = pd.read_excel(file_path, dtype=str)
    df = df[[0]]
    print(df.head())
    all_data = pd.concat([all_data, df], ignore_index=True)

# 读取目标文件
target_file_path = './data/测试/过滤文件.xlsx'
unique_data = pd.read_excel(target_file_path, dtype=str)
# 目标文件去重
unique_data = set(unique_data['企业名称'])
# 去重
all_data = list(set(all_data[~all_data[0].isin(unique_data)][0].to_list()))
#
# # 取出相同的数据
# all_data = list(set(all_data[all_data[0].isin(unique_data)][0].to_list()))
# 保存结果
result_df = pd.DataFrame({'企业名称': all_data})
if not os.path.exists('./data/测试/out'):
    os.makedirs('./data/测试/out')
result_df.to_excel('./data/测试/out/去重结果.xlsx', index=False)
